增量学习是一种范式,可以通过流数据大规模构建模型构建和更新。对于端到端的自动语音识别(ASR)任务,缺乏人类注释的标签,以及需要保留模型建设政策的隐私政策,这使其成为艰巨的挑战。受这些挑战的激励,在本文中,我们使用基于云的框架为生产系统展示了从隐私保存自动语音识别(ILASR)的增量学习中的见解。我们的意思是,通过保留隐私性,对没有人类注释的短暂数据使用。该系统是用于增量/持续学习的生产LevelAsASR模型的一步,该模型提供了接近实时测试床,以在云中进行端到端ASR实验,同时遵守保留隐私的政策。我们表明,即使在没有人类注释的标签的情况下,拟议的系统也可以在六个月的新时间内显着改善生产模型(3%),而在增量学习中,较弱的监督和大批量大小。在新时期,这种改进比测试集的新单词和短语相比为20%。我们在ASR的同时进一步探讨了拥有有效的教师模型和使用大批量大小的实用性的同时,以保护隐私的增量方式展示了模型构建的有效性。
translated by 谷歌翻译
我们提出了基于流的端到端自动语音识别(ASR)体系结构,该体系结构通过计算成本摊销来实现有效的神经推断。我们的体系结构在推理时间动态创建稀疏的计算途径,从而选择性地使用计算资源在整个解码过程中,从而使计算中的大幅降低,对准确性的影响最小。完全可区分的体系结构是端到端训练的,随附的轻巧仲裁器机制在帧级别运行,以在每个输入上做出动态决策,同时使用可调损耗函数来正规化针对预测性能的整体计算水平。我们使用在LiblisPeech数据上进行的计算摊销变压器变形器(T-T)模型报告了实验的经验结果。我们的最佳模型可以实现60%的计算成本降低,而相对单词错误率仅3%(WER)增加。
translated by 谷歌翻译
我们提出了一种针对8位神经网络加速器的新型8位量化感知训练(S8BQAT)方案。我们的方法灵感来自Lloyd-Max压缩理论,其实际适应性适应训练期间可行的计算开销。通过量化质心源自32位基线,我们使用多区域绝对余弦(MRACOS)正规器增强训练损失,该培训将重量汇总到其最近的质心,有效地充当伪压缩机。此外,引入了定期调用的硬压缩机,以通过模拟运行时模型重量量化来提高收敛速率。我们将S8BQAT应用于语音识别任务,使用经常性神经网络TransDucer(RNN-T)体系结构。使用S8BQAT,我们能够将模型参数大小增加,以将单词错误率相对降低4-16%,同时仍将延迟提高5%。
translated by 谷歌翻译
近年来已经看到了最终(E2E)口语理解(SLU)系统的重要进展,它直接从口头音频预测意图和插槽。虽然对话历史被利用以改善基于传统的基于文本的自然语言理解系统,但是当前的E2E SLU方法尚未在多转义和面向任务的对话中尚未结合这种关键的上下文信号。在这项工作中,我们提出了一个上下文E2E SLU模型架构,它使用多针关注机制来通过编码的先前的话语和对话框(语音助手所采取的动作)进行多转对对话。我们详细介绍了将这些上下文集成到最先进的复制和转换器的模型中的替代方法。当应用于由语音助理收集的大型识别的话语数据集时,我们的方法分别将平均单词和语义误差率降低10.8%和12.6%。我们还在公开可用的数据集中呈现结果,并显示我们的方法显着提高了非联盟基线的性能
translated by 谷歌翻译
端到端(E2E)自动语音识别(ASR)系统通常难以识别出罕见的单词,这在训练数据中出现了很少。一种有希望的方法,提高了这种稀有词语的识别准确性,是在推理的推理中锁定在个性化/上下文信息上。在这项工作中,我们通过利用这种上下文信号,提出了一种新颖的上下文传感器传感器(CATT)网络,其通过利用这种上下文信号来改善基于最先进的变换器的ASR系统。具体地,我们提出了一种基于多主题的上下文偏置网络,其与ASR子网的其余部分共同训练。我们探讨了对编码上下文数据的不同技术,并创建最终注意上下文向量。我们还利用BLSTM和预借用的基于BERT的模型来编码上下文数据并指导网络培训。使用内部现场数据集,我们示出了使用基于BERT的上下文编码器的CATT,可提高基线变压器传感器的字错误率,并且分别优于现有的深层上下文模型24.2%和19.4%。
translated by 谷歌翻译
口语理解(SLU)系统提取文本成绩单和语义与意图和插槽相关的语言。 SLU系统通常由(1)自动语音识别(ASR)模块组成,(2)接口来自ASR相关输出的接口模块,以及(3)自然语言理解(NLU)模块。 SLU系统中的接口随附文本转录或更丰富的信息(例如从ASR到NLU)的信息。在本文中,我们研究界面如何影响与口语理解的联合培训。最值得注意的是,我们在公开可用的50小时SLURP数据集中获得了最新结果。我们首先利用通过文本界面连接的大型ASR和NLU模型,然后通过序列损耗函数共同训练这两个模型。对于未利用预位模型的场景,使用更丰富的神经界面通过联合序列损失训练获得了最佳结果。最后,我们显示了利用预期模型随培训数据规模增加的总体减少影响。
translated by 谷歌翻译